“AI太炎 2.0”发布!
“AI太炎”是北京师范大学科研团队研发的专门适用于古汉语文本理解的大语言模型,属于国家语委重大项目“古籍整理智能化关键技术研究”(ZDA145-9)的阶段性成果。该模型具有较强的古典文献释读能力,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,兼容繁简中文输入。为了致敬近代国学大师章太炎先生,秉承章黄学派弘扬中华优秀传统文化的宗旨,该模型命名为“AI太炎”。
“AI太炎 2.0”发布会
8月27日,北京师范大学古汉语大语言模型“AI太炎 2.0”发布会暨数智时代应用语言学学科建设路径与方法座谈会在京举行。教育部语言文字信息管理司司长刘培俊、北京师范大学常务副校长王守军、北京大学中文系系主任杜晓勤、北京师范大学汉字汉语研究与社会应用实验室学术委员会主任华学诚等领导专家出席会议并致辞,课题负责人、北京师范大学文学院院长王立军教授对项目进行了介绍,语言学和人工智能领域的三十余位专家学者以及来自俄罗斯、西班牙、爱尔兰、德国、韩国、英国等国的十余位汉学家出席了本次会议。
北京师范大学古汉语大语言模型“AI太炎 2.0”发布会举办
党的二十大把“实施国家文化数字化战略”作为繁荣发展文化事业和文化产业的重要举措。作为中华优秀传统文化的重要载体,古代典籍的数字化整理与智能化研究,是贯彻落实这一战略部署的关键任务。北京师范大学“古籍整理智能化关键技术研究”项目团队,积极利用人工智能前沿技术解决古籍整理与研究中的实际问题,产出了“AI太炎”古汉语大语言模型这一重要成果,回应了党和国家文化事业发展战略的重大需求。
“AI太炎2.0”公众版正式发布
教育部语言文字信息管理司司长刘培俊致辞
刘培俊表示,多年来北京师范大学发挥学科、人才、文化和技术优势,瞄准国际发展前沿,聚焦服务国家战略,深化多方协同创新,在服务国家语言文字规范化标准化、信息化数字化和中国语言文化传播国际化全球化等关键领域不断探索,成就突出,并承建教育部、国家语委语言文字重点科研基地——“中国文字整理与规范研究中心”,为国家语言文字事业发展发挥了重要作用。中心科研团队还承担了教育部、国家语委重大科研项目——“古籍整理智能化关键技术研究”,今天,各位专家共同见证该重大科研项目成果——古汉语大语言模型“AI太炎 2.0”发布。研究表明,大语言模型技术可以大幅提高古籍整理研究效率,可望为普及推广国家通用语言文字、传承弘扬中华优秀语言文化、世界共享中国特色语言文明提供语言智能技术支持。
北京师范大学常务副校长王守军致辞
王守军指出,人工智能为人文学科带来了前所未有的机遇与挑战,北京师范大学坚持深入挖掘传统文化内涵,致力于传承民族精神,并积极适应数智时代的发展需求。前沿科技成果“AI太炎”将显著提升古籍整理的效率与精度,对于传承弘扬中华优秀传统文化来说具有重要意义。此外,为探索新文科建设路径,推动学科交叉融合,北师大文学院近期成立了应用语言学研究所,并联合校内兄弟单位共建“汉语言文学(应用语言学方向)+人工智能”双学士学位培养项目,希望通过上述举措,能够更好地为文化传承与创新发展作出积极贡献。
“AI太炎”大语言模型
“AI太炎”是北京师范大学王立军教授主持的国家语委重大项目“古籍整理智能化关键技术研究”的核心成果,是专门适用于古汉语文本理解的大语言模型。
此前,“AI太炎1.0”版于2023年11月进入内测阶段。在众多老师同学的帮助和推介下,海内外学术科研、基础教育、编辑出版等不同行业领域的4000余名用户参与内测,为模型分析结果提出改进意见。研究团队在此基础上对模型进行了持续迭代优化,并于2024年8月27日发布了“AI太炎2.0”公众版,以期更好地助力古籍整理、文言文教学和古汉语信息处理研究。
在半年多的内测时间中,4000余名海内外用户为“AI太炎”的成长提供了数万字宝贵建议
王立军在发布会上介绍,课题团队针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古汉语文本理解的大语言模型。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。小型大语言模型可以极大地降低模型研发、迭代和使用成本,并兼顾效果和效率平衡。值得一提的是,在辅助古籍整理、辞书编纂和语言研究等方面,模型表现出较大应用潜力。
目前,用户可通过文末地址访问“AI太炎2.0”公众版,输入待分析的古籍文本后,系统能够根据用户选择进行释读(无需输入提示词),包括解释文本中的疑难字词含义或背后的文化常识,将文言文翻译为现代汉语,对文本进行高精度的句读标点,或识别其所用典故。
字词释义
文白翻译
句读标点
识别用典
欢迎使用“AI太炎2.0”
“AI太炎2.0”公众版访问地址
-bnuweixin-
来源:文学院
排版:李晨舟
责任编辑:杨菲
投稿/加入我们:xwzx@bnu.edu.cn